11. 实现

实现:动作值的估值

在下个部分,你将编写一个算法,该算法会接受状态值函数 v_\pi 的估值 V,以及 MDP p(s',r|s,a) 的一步动态特性并返回动作值函数 q_\pi 的估值 Q

为此,你需要使用在上一部分讨论的方程,该方程使用马尔可夫决策流程 (MDP) 的一步动态特性 p(s',r|s,a) 获得来自 v_\piq_\pi,即

q_\pi(s,a) = \sum_{s'\in\mathcal{S}^+, r\in\mathcal{R}}p(s',r|s,a)(r+\gamma v_\pi(s'))

针对所有 s\in\mathcal{S}a\in\mathcal{A}(s)

你可以在下方找到相关的伪代码。

请在下个部分完成 Dynamic_Programming.ipynb 中的第 2 部分:从 v_\pi 获得 q_\pi。请记得保存内容!

你可以查看 Dynamic_Programming_Solution.ipynb 的相应部分,检查你的答案是否正确。